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摘要 ”混合 模型 方法 (Mixture Model Method) 是 近年 来 提出 的 ， 对 心理 与 教育 测验 中 的 异常 
作答 进行 处 理 的 方法 。 与 反应 时 益 值 法 ,反应 时 残 差 法 等 传统 方法 相 比 ,混合 模型 方法 可 以 
同时 完成 异常 作答 的 识别 和 模型 参数 估计 ， 并且, 在 数据 污染 严重 的 情况 下 仍 具 有 较 好 的 表 
现 。 该 方法 的 原理 为 根据 正常 作答 和 异常 作 管 的 特点 , 针对 分 类 潜 变 量 的 不 同类 别 ， 在 作答 
反应 和 反应 时 部 分 建立 不 同 的 模型 ， 从 而 实现 对 分 类 潜 变 量 ( 即 作答 层面 的 分 类 )， 以 及 模型 
中 其 他 题目 和 被 试 参数 的 估计 。 文 章 详细 介绍 了 目前 提出 的 儿 种 混合 模型 方法 , 并 将 其 与 传 
统 方法 比较 分 析 。 未 来 研究 可 在 模型 前 提 假 设 违背 , 含有 多 种 异常 作答 等 情况 下 探索 混合 模 
型 方法 的 稳健 性 和 适用 性 , 通过 固定 部 分 题目 参数 , 增加 选择 流程 等 方式 提高 混合 模型 方法 
的 使 用 效率 。 
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在 使 用 心理 与 教育 测验 对 学 生 的 人 格 、 技 能 和 能 力 等 潜在 特质 进行 测量 时 , 最 主要 的 目 
的 是 基于 测验 信息 得 到 学 生 潜 在 特质 的 有 效 估计 值 。 然而 , 在 实际 中 ， 学生 完成 测验 时 往往 
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不 可 避免 地 因为 异常 作答 的 出 现 带 来 一 些 与 测验 结构 无 关 的 污染 。 异 常 作 答 根据 其 原因 可 以 


分 为 不 努力 作答 (non-effortful responses)、 对 题目 有 预 了 解 的 作答 (preknowledge，Qian et al., 


2016; Sinharay & Johnson, 2019; Wang, Xu, Shang, & Kuncel., 2018) 和 作 浆 等 。 不 同 原因 的 异 
常 作答 可 能 有 不 同 的 表现 。 例 如 ， 不 努力 作答 可 能 表现 为 忽略 题目 、 加 速 作答 (speededness,， 


Hong & Cheng, 2019b; Shao et al., 2016; Yu & Cheng, 2019). 快速 猜测 作答 (rapid-guessing, Wise, 


2015, 2017) 等 。 
异常 作答 在 心理 和 教育 测验 中 非常 常见 。 例 如 ， 在 明尼苏达 多 项 人 格 测验 (Minnesota 
Multiphasic Personality Inventory, MMPI; Baer et al., 1997; Berry et al., 1992) 的 一 些 测试 中 ， 

有 超过 50% 的 被 试 快速 猜测 作答 的 题目 数 在 1 道 以 上 。 根 据 美国 国家 自然 科学 基金 


(www.nsf.gov/statistics/seind93/chap 1/doc/1s193.htm)Ztit , 接近 一 半 (45%) 的 12 年 级 学 生 报 告 


他 们 在 国家 教育 进展 评估 (National Assessment of Educational Progress, NAEP) 的 数学 测验 表 
现 不 如 他 们 在 学 校 测 验 上 努力 。Bridgeman 和 Cline(2004) 发 现 有 几乎 一 半 的 被 试 在 CAT- 
GRE( 基 于 计算 机 的 美国 研究 生 入 学 考试 ) 的 最 后 6 道 题 目 上 存在 加 速 作 答 行为 。 

总 的 来 说 ， 异 党 作答 有 具有 提供 的 心理 测量 学 信息 少 的 特征 (Wise, 2015,2017)。 因 此 ， 如 
果 在 测验 中 出 现 了 异常 作答 行为 , 那么 传统 测量 模型 就 不 能 恰当 处 理 , 造成 有 偏差 的 估计 结 


果 。 首 先 ， 很 多 情况 下 被 试 的 能 力 值 会 出 现 偏 差 (Rios etal., 2017; Wise, 2015; Wise & DeMars, 


2006; Wise & Kingsbury, 2016)， 进 而 造成 群 组 分 数 的 差异 (Borghans & Schils, 2012)。 其 次 ， 


题目 参数 估计 值 的 偏差 会 增 大 (Schnipke & Scrams, 2002; Wise & DeMars, 2006)。 第 三 ， 如 果 
不 同 子 群体 中 异常 作答 的 比例 不 同 , 这 种 差异 还 可 能 导致 项 目 功能 差异 , 或 者 对 不 同 子 群体 
测验 表现 的 比较 存在 偏差 (Setzer et al., 2013; Wise & DeMars, 2010)。 第 四 ， 测 验 的 信息 量 、 
信和 度 会 出 现 偏 差 (Wise & DeMars, 2006) . Pin, 原 有 的 分 析 方 法 将 无 效 的 异常 作答 视 为 有 效 ， 
可 能 会 高 估 信 度 。 第 五 ， 测 验 所 测量 的 结构 也 可 能 会 发 生变 化 ， 会 聚 效 度 出 现 偏差 (Weirich 
et al., 2017; Wise & DeMars, 2006)。 最 后 ， 与 测验 有 关 的 预测 变量 和 结果 变量 之 间 的 关系 ， 
假设 检验 得 到 的 结论 等 ， 都 可 能 会 出 现 偏差 (Clark et al., 2003)。 综 上 上， 异常 作答 不 仅 会 造成 
被 试 潜在 特质 估计 值 的 偏差 ， 也 会 降低 测验 质量 相关 指标 的 准确 性 ， 对 标定 测验 题目 参数 、 
开发 测验 等 造成 严重 影响 。 因 此 在 测验 的 数据 分 析 中 ， 有 必要 通过 科学 的 方法 ， 处 理 异 常 作 
答 ， 减 小 其 不 利 影响 ， 得 到 更 准确 的 参数 估计 结果 。 

异常 作答 的 处 理 主要 分 为 识别 并 降低 权重 , 在 模型 中 处 理 两 种 思路 (Morgenthaler, 2007)。 
异常 作答 传统 的 处 理 方式 主要 是 识别 并 降低 权重 ， 它 是 指 在 数据 清理 时 首先 识别 异常 作答 ， 
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1 ”再 在 数据 分 析 时 降低 异常 作答 在 样本 中 的 权重 (Ranger et al., 2019; Rios et al., 2017)。 一 种 降 
2 ” 低 权重 的 处 理 方式 是 采用 稳健 的 估计 方法 (Hong & Cheng, 2019a)。 而 降低 权重 中 最 极端 的 方 
3 ” 式 是 蔡 换 为 缺失 。 在 异常 作答 比例 不 太 大 的 情况 下 , 这 种 方式 得 到 的 参数 估计 结果 是 可 以 接 
4 ” 受 的 (e.g., Custer et al., 2012; Köhler et al., 2017; Rose, 2013)。 然 而 ， 这 类 方法 主要 存在 两 个 问 
5 ” 题 。 一 是 在 识别 阶段 ， 关 于 如 何 确定 有 效 、 可 信 的 阐 值 ， 往 往 存 在 较 大 争议 。 二 是 在 降低 权 
6 ENE, 当 异 常 作答 与 所 测量 的 潜在 特质 相关 时 (Wise, 2017), 如 果 异 常 作 答 的 比例 较 大 ， 那 
7 ” 么 这 种 方式 得 到 的 参数 估计 值 也 是 有 偏 的 。 为 了 解决 这 一 问题 , 近年 来 一 些 研究 者 提出 了 在 
8 ”模型 中 处 理 的 方法 。 该 方法 主要 指使 用 混合 模型 对 整体 数据 建 模 ,正常 作答 和 异常 作答 的 数 


9 ， 据 分 别 采用 不 同 的 模型 拟 合 (Meyer 2010; Molenaar et al., 2018; Wang & Xu, 2015; Wang, Xu, 


10 & Shang., 2018; Wise & DeMars, 2006)。 这 种 方法 的 优势 在 于 能 够 一 次 性 解决 异常 作答 识别 
11 ”和 参数 估计 的 问题 。 并 且 ， 即 使 异常 作答 与 所 测量 的 潜在 特质 有 关 ( 即 类 似 于 非 随机 缺失 )， 

12 ”无 法 简单 采用 降低 权重 的 方式 处 理 , 很 多 研究 证 明基 于 模型 的 方法 也 能 够 较 好 地 处 理 这 种 数 
13 (Pohl et al., 2012; Rose et al., 2017). 

14 混合 模型 在 识别 异常 作答 上 的 应 用 最 早 可 以 追溯 到 Schnipke 和 Scrams (1997) 使 用 对 数 
15 ” 正 态 混合 模型 拟 合 反 应 时 数据 ， 以 区 分 努力 作答 和 不 努力 作答 的 被 试 。 他 们 假设 ,如果 每 名 
16 ”被 试 在 每 道 题目 上 的 作答 行为 都 可 以 被 分 为 认真 作答 (solution behavion) 或 不 努力 作答 ， 并 且 
17 ”这 两 种 作答 行为 有 不 同 的 反应 时 分 布 。 那么 , 每 道 题 目 上 的 反应 时 分 布 就 是 两 种 行为 反应 时 
18 ”的 混合 分 布 。 即 ， 可 以 使 用 二 元 正 态 分 布 的 混合 模型 拟 合 反 应 时 。 后 来 ，Bolt 等 人 (2002) 又 
19 ”提出 使 用 混合 Rasch 模型 从 作答 反应 方面 区 分 含 加 速 行为 和 不 含 加 速 行为 的 被 试 ,该 模型 假 
20 ” 设 在 测验 最 末 的 题目 上 , 含 加 速 行为 的 潜 类 别 估 计 得 到 的 难度 参数 高 于 不 含 加 速 行为 的 潜 类 
21 ” 别 估 计 绪 果 。 因 此 ,可 以 使 用 贝 叶 斯 估计 的 方法 定义 待 估 参 数 的 先 验 分 布 进行 估计 。 最 初 的 
22 ”混合 模型 方法 有 两 个 方面 的 缺陷 。 一 是 仅 针 对 反应 时 或 者 作答 反应 建立 混合 模型 , 没有 同时 
23 ”利用 两 方面 信息 。 根 据 不 努力 作答 具有 反应 时 短 ， 作 答 反 应 正确 率 低 的 特点 , 或 者 对 题目 有 
24 ” 预 了 解 的 作答 具有 反应 时 短 , 作答 正确 率 高 的 特点 , 如果 能 够 同时 基于 反应 时 和 作答 反应 的 
25 “信息 建立 混合 模型 , 势必 能 够 更 精准 地 侦查 这 些 类 型 的 异常 作答 , 提高 模型 参数 估计 的 准确 
26 ”性 。 二 是 混合 模型 中 的 类 别 潜 变 量 是 针对 被 试 的 ， 只 能 完成 被 试 层面 的 识别 。 但 是 在 整个 测 
27 ” 验 中 ， 被 试 正常 作答 和 异常 作答 的 状态 可 以 来 回转 换 (Wang & Xu, 2015; Wise, 2015, 2017). 

28 ”即使 侦 别 为 异常 作答 的 被 试 , 也 可 能 在 部 分 题目 上 正常 作答 ,反之 , 判断 为 正常 作答 的 被 试 ， 

29 ”也 可 能 在 极 少 题目 上 异常 作答 。 因 此 ,为 了 最 大 程度 保留 有 效 数据 并 提高 模型 参数 估计 精度 ， 
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混合 模型 应 能 够 实现 作答 层面 的 分 类 (Patton et al., 2019; Yu & Cheng, 2019). 

为 克服 以 往 混合 模型 的 缺陷 , 近年 来 发 展 起 来 的 用 于 处 理 异 常 作答 的 混合 模型 不 仅 同时 
利用 了 反应 时 和 作答 反应 的 信息 建 模 ， 也 可 以 实现 作答 层面 的 识别 (Pokropek, 2016; Wang & 
Xu,2015)。 然 而 ， 这 些 方 法 虽然 得 到 了 国外 研究 者 的 广泛 关注 ， 但 仍 处 于 方法 的 提出 阶段 ， 
缺乏 对 于 方法 适用 性 的 模拟 研究 或 应 用 研究 。 而 国内 学 者 对 于 心理 与 教育 测验 中 的 异常 值 多 
采用 拓展 为 四 参数 IRT(item response theory, IRT) 模 型 (如 猜测 现象 ， 见 简 小 珠 等 , 2010)， 或 
利用 个 人 拟 合 指标 识别 (例如 作 浆 ， 见 黄 美 巩 等 ,2020) 等 方式 处 理 。 鲜 有 研究 者 采用 混合 模 
型 的 方式 处 理 数据 中 的 异常 作答 。 因 此 , 本 文 则 在 通过 详细 介绍 基于 混合 模型 处 理 异 常 作 答 
的 方法 ， 并 与 其 他 识别 方法 进行 对 比 , 总 结 并 归纳 其 局 限 性 及 未 来 研究 方向 ， 以 促进 该 方法 
在 国内 理论 研究 和 实证 应 用 的 发 展 。 

本 文 首先 介绍 心理 与 教育 测验 中 异常 作 管 的 两 类 传统 识别 方法 : 反应 时 六 值 法 和 反应 时 
残 差 法 。 之 后 详细 综述 基于 混合 模型 处 理 异 常 作答 的 方法 ， 及 每 种 方法 的 优 缺 点 。 再 综合 比 
较 这 几 类 方法 在 处 理 异 常 作答 中 的 特点 、 优 劣 及 使 用 时 的 注意 事项 。 最 后 ， 分 析 混 合 模型 方 
法 可 以 改进 的 方面 ， 并 指明 未 来 研究 方向 。 


1.1 反应 时 阅 值 法 


反应 时 阅 值 法 (response time threshold method) 所 基于 的 原理 是 ， 如 果 一 些 被 试 在 作答 某 
道 题目 时 ,反应 时 明显 小 于 正常 被 试 读 题 、 理 解 和 作答 所 需要 的 时 
Wise, 2017)。 那 么 可 以 推断 这 些 被 试 在 这 道 题 目 上 为 异常 作答 。 这 类 录 营 作答 (如 加 速 作答 、 
快速 猜测 作答 等 ， 以 下 简称 “快速 异常 作答 ”) 具 有 反应 时 短 ， 提 供 的 心理 测量 学 信息 少 两 
个 方面 的 特征 (Wise, 2015, 2017)。 因 此 ， 对 于 每 道 题目 可 以 确定 一 个 反应 时 间 值 TO0 表示 题 
目 )， 代 表 正 常 作答 和 快速 异常 作答 行为 的 界限 。 如 果 被 试 在 题目 上 的 反应 时 大 于 浆 值 ， 则 
为 正常 作答 ， 反 之 则 为 快速 异常 作答 。 

反应 时 赣 值 法 中 最 简单 的 方法 是 统一 阔 值 法 Kong et al., 2007)。 它 是 指 基于 对 题目 的 先 
验 研究 ， 给 所 有 题目 确定 统一 的 反应 时 闪 值 (如 ，3-5 秒 )。 由 于 需要 较 长 时 间 读 题 的 题目 理 
NUR SEHE REL, 统一 阐 值 的 设 定 显然 不 合理 , 因此 一 些 学 者 提出 了 根据 题目 特征 求 闵 值 法 
(Kong et al., 2007; Silm etal., 2013). Schnipke 和 Scrams(1997,2002) 基 于 大 量 观察 发 现 ， 包 含 
快速 异常 作答 的 反应 时 分 布 呈现 双 峰 分 布 的 特点 : 第 一 个 峰值 频数 较 小 ， 反 应 时 很 短 ， 表 示 


快速 异常 作答 。 第 二 个 峰值 频数 较 大 ， 反 应 时 较 长 ， 表 示 正 常 作答 。 双 峰 分 布 交 点 求 闪 值 法 
4 


ani 


R](Michaelides et al., 2020; 


26 


27 


28 


KANSAE EE INE AL. Wise 和 Ma(2012) 通 过 大 量 观 察 发 现 ， 当 反应 时 
超过 一 个 固定 的 时 间 点 之 后 , 作答 正确 率 会 从 随机 水 平 开始 显著 升 高 。 这 个 固定 的 时 间 点 就 
标志 着 正常 作答 和 低 正确 率 快 速 异常 作答 (例如 快速 猜测 作答 等 ) 的 分 界 点 ， 它 大 概 等 于 每 道 
题目 平均 反应 时 的 10%( 同 时 不 超过 10 秒 )。 常 模 益 值 法 将 这 个 分 界 点 作为 反应 时 间 值 。 基 
于 信息 求 阀 值 法 假设 , 随 着 反应 时 增加 , 题目 作答 正确 率 和 整个 测验 表现 的 平均 正确 率 的 相 
关 表现 出 从 无 信息 ( 低 相 关 ) 到 有 信息 (高 相关 ) 的 转换 ， 发 生 这 种 转变 的 点 ( 即 题目 得 分 和 总 分 
的 相关 为 0.2) 可 以 作为 浆 值 (Wise, 2019)。 条 件 分 布 法 是 一 种 针对 选择 题 的 结合 了 反应 时 和 
正确 率 的 求 闵 值 方法 (Ma etal., 2011; Guo et al., 2016)。 它 的 原理 是 找到 作答 正确 率 等 于 随机 
水 平时 所 对 应 的 反应 时 ， 作 为 划分 两 种 作答 行为 的 反应 时 间 值 。 

反应 时 阅 值 法 大 多 基于 快速 异常 作答 的 特点 提出 ， 较 简单 、 直 接 ， 易 于 理解 。 并 且 ,， 在 
大 部 分 应 用 研究 中 取得 了 较 好 的 效果 (Kong etal.,2007)。 但 是 每 种 方法 仍 存在 一 定 的 局 限 性 。 
首先 ， 统 一 闽 值 法 尽管 最 简单 ， 但 是 由 于 不 同 题目 特征 不 同 ， 所 需 读 题 和 扫描 的 时 间 也 不 一 
定 相 同 (Yan & Tourangeau, 2008)， 对 所 有 题目 使 用 相同 阔 值 显然 不 合理 。 为 改进 这 一 不 足 ， 
根据 题目 特征 求 阔 值 法 基于 题目 特征 设置 阀 值 。 但 是 要 使 用 哪些 特征 确定 阐 值 ， 如何 根 据 这 
些 特征 确定 阔 值 也 没有 普遍 认可 的 结论 。 其 次 ， 双 峰 分 布 交 点 求 闪 值 法 最 主要 的 问题 是 ， 实 
践 中 有 很 多 情况 下 反应 时 不 是 双 峰 分 布 。 例 如 ， 当 正常 作答 行为 所 需 反 应 时 本 身 就 很 短 时 
(Wise, 2017,2019)， 两 种 作答 反应 时 的 分 布 会 交叉 重奏 ， 反 应 时 就 不 一 定 是 双 峰 分 布 。 基 于 
音 息 求 阔 值 法 和 常 模 阔 值 法 虽然 能 够 在 双 峰 分 布 不 存在 的 条 件 下 应 用 。 但 是 ,， 当 题目 整体 
分 度 较 低 ， 或 者 两 种 作答 的 正确 率 相差 不 大 时 ， 基 于 信息 求 阔 值 法 的 结果 不 够 准确 。 而 常 模 
浆 值 法 仅 通过 经 验 观察 提出 ， 其 推广 性 仍 需要 经 过 模拟 和 实证 研究 检验 。 最 后 ， 条 件 分 布 法 
虽然 能 够 有 效 区 分 正常 作答 和 低 正 确 率 快速 异常 作答 (Guo et al., 2016; Lee & Jia, 2014)， 但 
是 ,这 个 方法 在 应 用 方面 存在 三 个 问题 。 一 是 由 于 必须 已 知 随机 水 平 的 正确 率 ， 因此 一 般 只 
适用 于 单项 选择 题 。 二 是 需要 通过 观察 每 道 题目 上 作答 反应 和 反应 时 的 分 布 找 出 阔 值 ,入 
大 批量 自动 化 地 应 用 于 大 规模 测验 。 三 是 实际 中 存在 大 量 累 积 正确 率 曲 线 与 随机 水 平 没 有 交 
点 的 情况 ， 这 种 情况 下 如 何 确定 阐 值 仍 没有 统一 有 效 的 结论 。 


xi 


a 


1.2 反应 时 残 差 法 


反应 时 残 差 法 (responsetime residual method) 将 反应 时 模型 与 数据 拟 合 ， 并 基于 模型 参数 


计算 反应 时 残 差 或 期 望 分 布 ， 将 实际 反应 时 残 差 〈 或 反应 时 ) 与 其 理论 分 布 比较 ， 以 识别 反 
5 


1 ”应 时 异常 短 的 快速 异常 作答 。 目前 所 提出 的 反应 时 残 差 法 主要 包括 基于 van der Linden(2006) 
2 ”的 反应 时 模型 的 标准 化 反应 时 残 差 法 (Qian, et al., 2016) 和 基于 van der Linden(2007) 的 多 层 模 
3 ”型 的 贝 叶 斯 残 差 法 (van der Linden & Guo, 2008)。 两 种 方法 的 区 别 在 于 ， 标 准 化 反应 时 残 差 
4 ”法 是 借助 标准 化 反应 时 残 差 符 合 标准 正 态 分 布 进行 判断 , 仅 利用 了 反应 时 信息 。 而 贝 叶 斯 残 
5 ” 差 法 将 实际 的 作答 反应 和 反应 时 与 多 层 模 型 拟 合 , 然后 将 反应 时 观测 值 与 其 后 验 预 测 密度 比 
6 ” 较 做 出 判断 ， 同 时 利用 了 作答 反应 和 反应 时 的 信息 。 

7 反应 时 残 差 法 的 优势 在 于 背后 有 特定 的 理论 模型 (分 布 )， 不 需要 通过 观察 设 定 阔 值 ， 也 
8 ”不 存在 无 法 找到 阔 值 的 特例 ， 可 以 大 批量 应 用 。 但 是 ， 这 类 方法 所 面临 的 最 大 问题 在 于 ， 高 
9 ”比例 的 快速 异常 作答 会 导致 参数 估计 结果 的 偏差 , 进而 造成 标准 化 反应 时 残 差 或 反应 时 后 验 
10 ”预测 密度 的 偏差 ， 难 以 得 到 准确 的 识别 结果 。 例 如 ，Wang，Xu，Shang 和 Kuncel(2018) 研 究 
11 ”发 现 , 随 着 快速 异常 作答 比例 增加 ， 贝 叶 斯 残 差 法 表现 显著 变 差 。 即 使 快速 异常 作答 数据 基 
12 ”于 残 差 法 假设 生成 ， 当 个 人 快速 异常 作答 的 比例 产生 于 U(0.5, 0.75) 的 均匀 分 布 时 ， 贝 叶 斯 
13. 残 差 法 的 正确 识别 率 只 有 0.301。 


二 44 2 混合 模型 法 


15 与 识别 并 降低 权重 的 两 阶段 方法 相 比 ， 混 合 模型 法 (mixture model method) 能 够 一 次 性 解 
16 ，” 决 异常 作答 识别 及 参数 估计 的 问题 。 并 且 ， 贝 叶 斯 框架 下 的 马尔 科 夫 链 蒙特 卡 洛 (Markov 
17 Chain Monte Carlo, MCMC) 算 法 的 发 展 ， 较 好 地 解决 了 这 类 模型 参数 估计 的 问题 。 因 此 近年 
18 ”来 不 断 有 研究 者 提出 使 用 混合 模型 处 理 测验 中 的 异常 作答 。 以 下 将 这 些 方法 分 为 两 类 进行 介 
。 第 一 类 方法 使 用 反应 时 来 预测 每 个 作答 所 属 的 潜 类 别 ， 第 二 类 方法 则 直接 将 含有 作答 反 
20 ”应 和 反应 时 的 多 层 模型 拓展 为 混合 模型 , 同时 估计 得 到 各 题目 、 被 试 参数 和 类 别 潜 变 量 的 估 
21 WME. 


MR 


19 


22 2.1 使 用 反应 时 预测 类 别 的 混合 模型 


23 2.1.1 等 级 分 组 的 反应 时 模型 


24 Pokropek(2016) 借 用 等 级 分 组 模型 的 思想 ， 将 反应 时 信息 与 IRT 模型 结合 ， 提 出 了 等 级 
25 ”分 组 的 反应 时 模型 专门 用 于 识别 快速 猜测 作答 。 
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假设 正常 作答 用 Rasch 模型 拟 合 ， 快 速 猜 测 作答 的 答对 概率 设 为 1。 答 对 概率 可 以 表示 


为 


exp (0 j- B1) 


P(Y; = 1|Ci; = 1,2) = Tijiz + (1 = nijlz) T+exp (bp 


(1) 


其 中 ， 区 表示 被 试 7 在 题目 ;上 的 作答 ， Cij 表 示 分 组 (1 示 猜 测 组 ， 表示 正常 组 )， Tijlz 表 


示 基 于 协 变 量 Z( 反 应 时 )， 将 被 试 j 在 题目 i 上 的 作 管 分 到 组 1 的 概率 ，1 一 zijlz 表 示 分 到 组 


2 的 概率 ，(exp (6; — B:))/(1 + exp (6; Bi) ) 是 Rasch 模型 ， 其 中 0) 表示 被 试 j 的 能 力 参数 ， 


BEREH i 的 难度 参数 。 该 模型 将 快速 猜测 作答 的 答对 概率 限定 为 1， 这 也 适用 于 对 题目 
预 了 解 的 作答 。 如 果 将 该 模型 用 于 不 努力 作答 的 情境 ， 根 据 其 正确 率 低 的 特点 ,可 以 将 答 
对 概率 设 为 一 个 较 低 的 值 (如 对 于 多 项 选择 题 ， 设 为 随机 水 平 )。 

rujlz 可 以 使 用 反应 时 来 预测 ， 即 


Ci; = 1\time;; 
mpi P( ij | a =a + b: time, (2) 


1-P(Cij = 1|time;; 
其 中 ，a 和 b 表 示 预 测 被 试 j 在 题目 i 上 的 作答 分 组 的 截 距 和 斜率。 
该 模型 可 以 应 用 Mplus 软件 , 采用 稳健 标准 误 的 极 大 似 然 估计 方法 估计 参数 (Pokropek, 


2016)。Pokropek(2016) 使 用 模拟 研究 证 明 该 方法 能 够 得 到 较 准确 的 识别 结果 和 参数 估计 结果 。 


2.1.2 半 参 数 化 的 混合 模型 


Molenaar 等 人 (2018) 提 出 了 半 参 数 化 混合 模型 来 区 分 快速 作答 和 慢 速 作答 。 如 果 分 类 结 
果 显 示 快 速 作答 的 反应 时 小 于 正常 被 试 读 题 、 理 解 和 作答 所 需要 的 时 间 , 则 可 以 认为 所 识别 
出 的 快速 作答 即 为 快速 异常 作答 ,而 慢 速 作答 为 正常 作答 。 该 方法 假设 在 每 个 类 别 内 部 , 反 
应 时 服从 对 数 正 态 分 布 。 使 用 p= 1,.…, N 代表 被 试 ，i= 1,.., 7 代表 题目 。Cy; 表 示 被 试 p 在 
题目 i 上 的 作答 类 别 , 假设 Cy; = 0 表示 慢 速 作答 ，Cy; = 1 表示 快速 作答 。 MOX p 在 7 道 题目 


上 的 分 类 为 向 量 Cy = [Cog Cp2, Ut) Cal. 观察 到 作答 H 量 为 xp = [Xp Xp Xp | ZEA 


P(Xp|Op, cp) = Ii: (fy) "o(-Q) ^", (3) 


N 
“wy 
d 


yi = [a (1 T Cpi) T iC pi] T g, D Cpi) + By Cou e 


0, te BLK p 的 能 力 参 数 ,w(.) 是 logistic 方程 ,ws 是 题目 ;在 类 别 s 的 区 分 度 参数 (s = 0,1), Bsi 


是 题目 7 在 类 别 s 的 容易 度 参 数 。 
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假设 被 试 p 在 题目 i 上 的 连续 反应 时 Ty; 能 够 通过 一 定 的 转换 关系 得 到 类 别 变量 ;, 即 : 


fpi = 2 WR k(Tpi) E (bi beini) z201.,2-1, (5) 
RB. bdo RIN RN, ZAR Ra RB, kR. WAR 
虚无 变量 di 表示 思 ,是 否 属于 类 别 (dpi = 1 或 者 dyis = 0)， 可 以 使 用 广义 线性 IRT 模型 


表示 分 类 关系 


bIE(dpiz|tp, Cp) | = Yzi — 8Cpi — Yitp, 60, (6) 
yzi 表 示 题 目 i 的 反应 时 属于 类 别 z 的 反应 时 类 别 参数 ，gwi 是 斜率 ， 芭 是 被 试 的 速度 参数 ， 
是 作答 分 类 的 系数 。 限 定 6 > 0 是 为 了 确保 作答 类 别 为 Coi = 1 的 反应 时 分 到 低 的 反应 时 类 
别 z 中 可 能 性 更 大 ， 即 反应 时 更 短 ,因此 Cy; = 1 表示 快速 作答 ，Cy; = 0 表示 慢 速 作 答 。 他 们 
提出 了 两 种 链接 函数 b(.)， 累 积 类 别 函数 和 相 邻 类 别 函 数 ， 用 于 预测 反应 时 属于 某 个 类 别 的 
概率 。 其中， 累积 类 别 函数 类 似 于 等 级 评分 模型 (Samejima, 1969)， 相 邻 类 别 函数 类 似 于 分 部 


计 分 模型 (Masters, 1982)。 例 如 ， 使 用 相 邻 类 别 函 数 ， 有 


Co 


fpi 
exp! X, o Yzi-ÓCpi- 9itp 


P(t,|v,, Cp) = I4 x (7) 


Z-A exp(X, o ¥2i-8Cpi-itp) 
其 中 类 别 参数 yz 可 以 根据 下 式 的 限定 得 到 
Lz=0 —ô — PiTp + Yzi = 0. (8) 
研究 证 明 ， 当 反应 时 转换 后 的 类 别 数 设 定 为 7、5 或 3 时 ， 该 方法 能 得 到 无 偏 的 参数 估 
计 结 果 , 相 比 于 将 反应 时 当 作 连续 变量 的 方法 , 检验 力 几 乎 不 受 影响 (Molenaar et al., 2018). 


2.1.3. 基于 反应 时 的 混合 作答 反应 模型 


为 了 弥补 半 参 数 化 的 混合 模型 将 反应 时 转换 为 分 类 变量 的 缺陷 ，Molenaar 和 de 
Boeck(2018) 提 出 了 基于 反应 时 的 混合 作答 反应 模型 以 区 分 快速 作答 和 慢 速 作答 。 
在 反应 时 部 分 ， 参 考 van der Linden(2006) 的 模型 。 使 用 p= 1... N 代表 被 试 ，i= Lu 
代表 题目 ， 对 于 原始 反应 时 Two， 有 
In(Tpi) = Ai — t, + £y (9) 
其 中 ，X 表 示 题 目 i 的 时 间 密度 参数 ，zty 表 示 被 试 p 的 速度 参数 ，g); 是 残 差 项 。 
在 作答 反应 部 分 , 分 别 对 快速 作答 和 慢 速 作答 定义 不 同 的 测量 模型 (Partchev & De Boeck, 


2012)。 即 


P(X = 1|[6,, oi» aip Boi Bai) = piP (Xpi = 1|6,, Zoi Boi) T (1 = Ti )P(Xpi = 1[8,, 5, Bri), (10) 
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其 中 , my Zea Bak p 在 题目 i 上 的 作答 属于 类 别 0 的 概率 , 1 一 7cyi; 则 表示 被 试 p 在 题目 i 上 
的 作答 属于 类 别 1 的 概率 。aoi, Boi May, Bi 分别 表示 类 别 0 和 类 别 1 的 作答 在 题目 ;上 的 区 
分 度 参 数 、 难 度 参数 。 与 两 参数 IRT 模型 一 致 ， 类别 0 和 类 别 1 的 测量 模型 可 以 分 别 表 示 为 
logit[(X,; = 1|6,, aop Boi) | = @oi%p — Boi» (11) 
logit[(X,; = 1],, 4; B11)] = «1:65 — Baii- (12) 


然后 使 用 反应 时 来 预测 类 别 。 被 试 p 在 题目 i 上 的 作答 属于 类 别 0(C5; = 0) 概 率 的 logit 


为 
in(Tpi)-(Ai-tp) _ zo) 


logit[P (Coe = Ol pi Ap, eir 6 60)] = 6 (MO (13) 


其 中 , 斜率 参数 gi € [0, %) 以 避免 标签 转移 ( 指 两 个 类 别 意义 的 转移 )。 被 试 p 在 题目 i 上 的 实 
际 反 应 时 与 模型 预测 均值 相 比 越 长 ， 越 可 能 被 分 到 类 别 0 中 。 因 此 ， 类 别 0 代表 慢 速 作答 ， 
类 别 1 表示 快速 作答 。 截 距 参 数 5o 表 示 作 答 被 分 到 慢 速 作答 类 别 的 难度 参数 。 模 拟 研究 证 明 ， 


处 用 贝 叶 斯 框架 下 的 MCMC 算法 ， 该 模型 能 够 得 到 较 准 确 的 参数 估计 结果 (Molenaar & de 


Boeck, 2018)。 


2.2 基于 反应 时 和 作答 反应 的 混合 多 层 模 型 


2.2.1 混合 多 层 模型 


van der Linden(2007) 的 多 层 模型 是 迄今 最 流行 的 ， 基 于 作答 反应 和 反应 时 的 多 层 模型 。 
该 模型 包括 两 个 水 平 , 第 一 水 平 是 测量 模型 , 包括 作答 反应 部 分 的 IRT 模型 和 反应 时 部 分 的 
标准 对 数 正 态 分 布 模型 。 第 二 水 平 是 个 体 水 平 ， 通 过 能 力 和 速度 的 协 方差 结构 ， 将 作答 反应 
和 反应 时 联系 起 来 。 
具体 来 看 ， 第 一 水 平 的 模型 可 以 表示 为 

MR 作答 反应 模型 


1+exp (aj(0i-b))) (14) 
In(tij) Ir; N(B; — Ti, aj?) 反应 时 模型 


ht 


其 中 ，P(2 = 1|0; zr BG, iG — 1,..., DERE j 1... J) LIEW SIE, ty RRIA 
i 在 题目 7 上 的 反应 时 ，ay 和 bj; 分 别 是 题目 j 的 区 分 度 参数 和 难度 参数 ，pj; 表 示 题 目 j 的 时 间 
密度 参数 ，aj 表 示 题 目 j 的 时 间 区 分 度 参 数 。 时 间 密 度 类 似 于 IRT 中 难度 的 概念 ， 时 间 密 度 
WEA, 完成 题目 所 需要 的 时 间 就 越 长 , 而 时 间 区 分 度 类 似 于 IRT 中 区 分 度 的 概念 , 时 间 区 分 


ERR, 不同 速度 被 试 在 题目 上 期 望 反 应 时 的 差异 就 越 大 。NO 表 示 正 态 分 布 ，9; 和 Ti 是 被 试 
9 


i 的 能 力 参 数 和 速度 参数 。 在 第 二 水 平 (个 体 水 平 ), 假设 被 试 参数 点 = (0; zi) 服 从 二 元 正 态 分 
Hii N (Mp, Zp) PEMA Ap, = (Ho kh) WIZEN 
E, = (s e (15) 

为 了 模型 识别 ， 对 于 IRT 模型 通常 限定 ne = 0, of = 1。 对 于 反应 时 模型 ， 可 以 限定 速 
度 参 数 的 均值 或 者 时 间 密 度 参 数 的 均值 。Wang 和 Xu(2015) 建 议 限定 = 0 以 便于 和 IRT 模 
型 的 限定 保持 一 致 。 

这 一 模型 的 优势 为 在 同一 模型 中 协调 了 速度 和 能 力 的 关系 , 因此 , 反应 时 信息 可 以 帮助 
提高 IRT 模型 参数 估计 准确 性 , 反 过 来 , 作答 反应 信息 也 可 以 帮助 提高 反应 时 模型 参数 估计 
准确 性 (van der Linden, 2007)。 

在 此 基础 上 ，Wang 和 Xu(2015) 提 出 了 基于 反应 时 和 作答 反应 的 混合 多 层 模 型 (mixture 
hierarchical model)， 用 于 识别 异常 作答 。 根 据 正常 作答 行为 和 异常 作答 行为 的 特点 ， 可 以 对 
总 体 的 作答 反应 模型 和 反应 时 模型 进行 分 解 。 

在 作答 反应 模型 部 分 ， 被 试 i 在 题目 i 上 答对 的 概率 为 

P(Y; = 1|44) = (1 - 4i)P(Y = 1|Ay = 0) + AjP(Yy = 14y = 1), (16) 
其 中 ,hij 是 表示 作答 行为 分 类 的 潜 变 量 , 4i; = 1， 表 示 被 试 ! 回 答题 目 / 是 异常 作答 ，4i) = 
0， 表 示 是 正常 作答 。 如 果 4ij = 0， 可 使 用 三 参数 logistic(3PL) 模 型 预测 正常 作答 的 答对 概 


率 
M 
o 


Ht 


exp [aj (6;-b,)] 
1+exp [a; (6;-b,)|’ 


其 中 ，aj，bjy 和 cj 分 别 代 表 题 目 j 的 区 分 度 参数 、 难 度 参 数 和 猜测 参数 。9; 表 示 被 试 i 的 能 力 
参数 。 根 据 测 验 性 质 和 作答 类 型 的 不 同 ， 其 他 的 IRT 模型 ， 例 如 两 参数 logistics(2PL) 模 型 、 
分 部 计 分 模型 或 者 等 级 评分 模型 也 可 以 应 用 于 这 一 混合 多 层 模型 的 框架 下 。 如 果 4; = 1, 被 


试 ;回答 题目 / 是 异常 作答 ， 答 对 概率 是 gj 。 即 


m 


P(Y; = 1|Aj = 1) = gj. (18) 
注意 这 里 的 gj 与 三 参数 IRT 模型 中 猜测 参数 cj 的 含义 不 同 。9gj 表 示 被 试 异 常 作 答 的 正确 
率 。 而 5 反映 了 被 试 正常 作答 条 件 下 的 猜测 正确 率 。 
在 反应 时 模型 部 分 ， 假 设 对 于 被 试 和 题目 /， 观 察 到 的 反应 时 7 ”可 以 表示 为 
TEs = (1— Ay) Ty + Ay Cy, (19) 


其 中 , 7 表示 被 试 正常 作答 题目 j 所 需 的 时 间 , C, AABN i 异常 作答 题目 /所 需 的 时 间 。 
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1 


假定 正常 作答 行为 的 反应 时 服从 对 数 正 态 分 布 (van der Linden, 2007). 


In(T7) ~N (6; ST >"), (20) 


其 中 ，Bj 是 题目 j 的 时 间 密 度 参数 ，a 是 题目 j 的 时 间 区 分 度 参数 ，7i 是 被 试 i 的 速度 参数 。 


假定 异常 作答 行为 的 反应 时 也 服从 对 数 正 态 分 布 


In(Cij) ^N (uc, 02). (21) 


这 个 分 布 的 均值 (Kc) 和 方差 (o2) 对 于 所 有 的 被 试 和 题目 都 相同 ， 用 于 反映 异常 作答 提供 
的 心理 测量 学 信息 少 的 特点 。 


与 van der Linden(2007) 的 多 层 模 型 一 致 ， 该 混合 模型 包含 三 个 局 部 独立 性 假设 。 第 一 ， 


基于 被 试 的 能 力 水 平和 是 否 正常 作答 的 分 类 ,作答 反 应 具备 条 件 独立 性 。 第 二 ， 基 于 被 试 的 


速度 水 平和 是 否 正常 作答 的 分 类 , 反应 时 具备 条 件 独立 性 。 第 三 , 基于 被 试 参数 (能 力 参数 、 
速度 参数 ) 和 是 否 正 常 作答 的 分 类 , 对 于 每 道 题目 来 说 , 作答 反应 和 反应 时 具备 条 件 独 立 性 。 


Wang 和 Xu(2015) 


采用 基于 蒙特 卡 洛 的 EM 算法 (Monte Carlo-based EM algorithm, MCEM) 


估计 参数 。 这 一 算法 是 在 标准 EM 算法 的 基础 上 ， 通 过 蒙特 卡 洛 模拟 的 方式 得 到 E 步 又 的 
期 望 值 。 在 MCEM 的 每 次 迭代 中 , 取得 一 个 蒙特 卡 洛 样本 最 方便 的 方式 就 是 使 用 MCMC 算 


法 ， 


通常 包括 Gibbs 抽样 或 者 MH(Metropolis-Hastings, MH) 抽 样 。 后 来 ，Wang 等 人 (Wang， 


Xu, & Shang., 2018; Wang, Xu, Shang, & Kuncel., 2018) 又 直接 采用 了 贝 叶 斯 框架 下 的 MCMC 


算法 得 到 参数 的 后 验 分 布 ， 进 而 计算 后 验 均 值得 到 参数 的 点 估计 值 。 后 面 2.2.2 一 2.2.4 中 介 


ANS 


的 模型 都 采用 该 方法 实现 参数 估计 。 这 类 估计 方法 的 优势 主要 有 两 个 方面 。 一 是 它 允 许 针 


对 不 同类 型 的 异常 作答 , 对 模型 中 的 参数 加 入 特定 的 先 验 分 布 ,以 限定 参数 估计 值 的 大 致 范 


围 。 例 如， 我们 可 以 限定 快速 异常 作答 反应 时 的 均值 jc 为 一 个 均值 相对 较 小 的 分 布 ， 用 以 表 
示 其 反应 时 短 的 特点 。 又 例如 , 快速 猜测 作答 和 加 速 作答 的 gj 应 当 限 定 为 小 于 正常 作答 使 用 
3PL 模型 得 到 的 答对 概率 值 ， 而 对 题目 有 预 了 解 的 作答 的 gj 应 当 限 定 为 大 于 正常 作答 使 用 


3PL 模型 得 到 的 答对 概率 值 。 二 是 对 于 每 个 参数 可 以 得 到 其 后 验 分 布 ,便于 基于 整个 后 验 分 


布 而 不 是 点 估计 值 进行 后 续 的 统计 检验 (如 后 验 预 测 p 值 , posterior predictive p-value, PPP 等 )。 


Wang 和 Xu(2015) 的 模拟 研究 结果 证 明 ， 当 数据 中 同时 含有 正常 作答 与 异常 作答 时 ， 应 


混合 多 层 模型 相 比 了 


传统 多 层 模型 能 够 得 到 更 准确 的 参数 估计 结果 。Wang, Xu,Shang 和 


Kuncel(2018) 的 研究 证 明 ， 无 论 数据 是 基于 混合 多 层 模 型 还 是 残 差 模型 产生 ， 混 合 多 层 模型 


在 


E 确 识别 率 和 错误 


E 绝 率 上 表现 都 较 好 , 特别 是 当 异 常 作答 的 比例 较 高 时 , 该 模型 相 比 于 


贝 叶 斯 残 差 法 优势 更 加 明显 。 
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1 222 应 用 于 高 阶 IRT 的 混合 多 层 模型 


2 Lu 等 人 (2020) 近 期 又 将 混合 多 层 模 型 拓展 应 用 于 高 阶 IRT 模型 ， 主 要 处 理 测验 结构 为 
3 ”题目 间 多 维 的 情况 。 这 一 模型 在 RT 模型 部 分 采用 高 阶 IRT 模型 ， 即 对 于 被 试 i 在 分 维度 


4 ”wv=1,2,3,.….V， 葵 个 分 维度 ) 上 的 能 力 9t， 有 如 下 线性 关系 


5 Oy = By 0P t e, (22) 


D 
性 


其 中 ，6 人 表示 被 试 i 的 高 阶 能 力 ，B, 表 示 9 中 的 回归 系数 ，e 内 表示 9 由 的 残 差 项 。 基 于 模 


7 ”型 识别 的 考虑 ， 假 设 9~N(0,1)， 并 且 eL~N(0,1 — B2)。 这 样 的 限定 能 够 保证 高 阶 能 力 和 


8 低 阶 能 力 在 同一 尺度 上 。nijw 为 表示 作答 是 否 为 正常 作答 的 指标 变量 ， 其 值 为 1 表示 异常 作 
T 9 ” 答 ，0 表示 正常 作答 。 当 被 试 ; 在 分 维度 v 的 题目 上 的 作答 为 正常 作答 时 Ohuj = 0)， 可 以 
CO — 40 。 使 用 三 参数 正 态 户型 模型 (也 可 以 使 用 其 他 IRT 模型 ) 拟 合 数 据 ， 即 


11 P( = Univ = 0,0, ajv biv Civ ) = Gy (1 — Gv) © (ay (09 — biv) ), (23) 
O ”12 Rp, @() 表 示 标准 正 态 分 布 函数 ，auv，b 和 cn 分 别 表示 分 维度 ”上 题目 /的 区 分 度 参数 ， 

13 ”难度 参数 和 猜测 参数 。 

14 该 模型 关于 异常 作答 的 正确 作答 概率 ， 以 及 反应 时 部 分 模型 的 分 解 ， 均 与 Wang 和 
15 ”Xu(2015) 的 混合 多 层 模 型 一 致 。Lu 等 人 (2020) 在 多 维 测验 ， 且 每 个 维度 的 题目 数 ， 时 间 限 制 
< — 16 不 同 的 情境 下 模拟 数据 , 比较 了 这 一 模型 和 基于 单 维 IRT 模型 的 混合 多 层 模型 的 表现 。 结果 
C — aq; 。 证明， 该 模型 的 参数 估计 偏差 更 小 ， 识 别 准 确 性 更 高。 


18 223 基于 混合 多 层 模型 的 两 步 方法 


19 针对 同时 存在 不 努力 作答 和 对 题目 有 预 了 解 的 情境 ，Wang，Xu 和 Shang(2018) 在 混合 
20 ”多 层 模 型 的 基础 上 ， 又 提出 了 确定 异常 行为 模式 的 两 步 方 法 。 

21 具体 来 说 , 第 一 步 是 将 数据 与 混合 多 层 模型 拟 合 。 第 二 步 是 通过 对 作答 模式 的 检验 ， 进 
22 ”一 步 确 定 异常 作答 是 不 努力 作答 还 是 对 题目 有 预 了 解 的 作答 

23 第 二 步 的 检验 方法 为 ， 首 先 ， 对 于 异常 作答 的 题目 进行 汇总 ， 即 对 于 被 试 i， 计 算 异 常 
24 ”作答 (4;; = 1) 的 题目 数 /;。 然 后 ， 计 算 每 名 被 试 标 准 化 残 差 的 均值 (Wright & Stone, 1979). 
25 VC) = tye, urn (24) 


T P(0;)[1-P;@a1 


12 


14 


Kp, PO) REF RR i 的 能 力 参 数 估计 值 6;:， 代 入 IRT 模型 计算 得 到 的 被 试 i 在 题目 i 上 
正常 作答 的 期 望 概率 。 由 于 这 个 式 子 中 6 的 点 估计 值 可 能 不 准确 ， 因 此 Wang, Xu 和 Shang 
(2018) 使 用 贝 叶 斯 方法 来 改进 。 即 ， 使 用 P(1ly 站 替代 Pj(6.) 


PAL)  z- f PO) Terj, POELL — Pe(O)] Yrg(0) do, Q5) 


RP, yi Rania i TEIESS H (Ay = 0) 上 的 作答 反应 ，Pi.(9) 是 基于 3PL 模型 计算 的 被 试 i 
在 第 k 道 正常 作答 的 题目 上 的 正确 率 ，yix 表 示 被 试 i 在 第 K 道 正常 作答 的 题目 上 的 实际 作 
答 ，R-_j 表 示 被 试 i 正常 作答 的 题目 。g(9) 表 示 9 的 先 验 密度 ，Hi;j 是 被 试 i 在 题目 7 上 的 正 
态 化 常数 。 

最 后 确定 阔 值 v, 如 果 太 (6) > v. 被 试 i 的 异常 作答 是 对 题目 有 预 了 解 , 如 果 V.(0) < 一 v， 
Bk i 的 异常 作答 是 不 努力 作答 ， 如 果 -v < Vi(9) < v. Max i 的 异常 作答 混合 了 以 上 两 种 
模式 。 他 们 的 模拟 研究 (Wang, Xu, & Shang, 2018) T1 T BE v 的 选取 问题 ， 建 议 在 实践 中 
选择 v=0。 研究 证 明 ， 基 于 混合 多 层 模型 的 两 步 方 法 不 仅 能 够 在 各 种 条 件 下 得 到 较 高 的 正确 
识别 率 和 较 低 的 错误 拒绝 率 ， 还 能 够 得 到 较 准 确 的 参数 估计 结果 。 


2.2.4 考虑 了 缺失 数据 的 混合 多 层 模型 


针对 同时 存在 不 努力 作答 和 缺失 的 情境 ， 基 于 混合 多 层 模 型 ，Ulitzsch 等 人 (2020) 提 出 
了 考虑 了 缺失 数据 的 混合 多 层 模 型 。 这 一 模型 的 基本 框架 是 将 作答 先 分 为 正常 作答 和 不 努力 
作答 ， 其 中 不 努力 作答 又 有 忽略 题目 和 随机 猜测 作答 两 种 表现 。 

他 们 的 模型 中 加 入 了 潜 变 量 $; 用 以 表示 被 试 i 的 努力 程度 。 使 用 Rasch 模型 来 预测 被 试 
是 否 努 力作 答 的 概率 ， 可 以 得 到 


exp(ói-1j) 


Ply = 1) = esso 


(26) 


其 中 ,5 表示 题目 7 的 努力 程度 难度 ， 类 似 于 IRT 中 对 难度 的 定义 ,4 越 高 ， 表 示 被 试 在 这 道 
题目 上 越 不 容易 努力 作答 ，4ij 为 是 否 努 力作 答 的 二 分 变量 
示 不 努力 作答 )。 他 们 还 定义 了 一 个 表示 作答 是 否 缺失 的 二 分 变量 di};，dij = 1 表示 被 试 i 在 
BH j LAS, dj = 0 表示 被 试 IEMA, LAS. WRIA i 在 题目 /上 是 努力 作答 
(Aij 2 1)， 则 P(dij 21|4;; = 1) =0, P(dj = 0|4jj = 1) = 1， 即 被 试 i CMA; 上 肯定 有 
作答 。 此 时 可 参考 van der Linden(2007) 的 多 层 模型 拟 合 作 管 反应 和 反应 时 。 如 果 被 试 i 在 题 
Aj 上 是 不 努力 作答 (4i = 0) 那么 dij = 1 表示 被 试 i 在 题目 i 上 是 由 于 忽略 而 缺失 , dij = 0 


Aij = 1 表示 努力 作答 ， Aij = 0 表 


— 
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17 


18 


19 
20 


表示 被 试 ; 在 题目 上 是 随机 猜测 。 则 有 


= _ _ exp(YotviOitYzti) 
P(dij = 1|4; = 0) = 0 
1+exp(yo+y10i+Y2Ti) 


其 中 ， 9; 和 Tj; 分别 表示 被 试 i 的 能 力 参 数 和 速度 参数 ， yo fly, ; Y2 


于 随机 猜测 作答 ， 答 对 的 概率 为 


P(uij = 1|di; = 0, Aij = 0) =C, 


RP, c 是 猜测 参数 。 


Q7) 


分 别 是 截 距 和 和 斜率 参数 。 对 


Q8) 


在 反应 时 部 分 ,与 Wang 和 Xu(2015) 的 模型 一 致 ， 不 努力 作答 的 反应 时 服从 均值 (Bp) 和 


方差 (08) 恒 定 的 对 数 正 态 分 布 ， 即 


In(tij|Ai; = 0)~N (Bp, Op). 


此 外 ,还 假定 不 努力 作答 所 需要 的 反应 时 小 于 努力 作答 ,， 因 


度 参 数 (851) 和 不 努力 作答 的 对 数 反 应 时 均值 (5p) 存 在 以 下 关系 
B, = By + Bj, RB >0， 


最 后 ， 假 设 所 有 被 试 参数 服从 均值 为 


Bp = (uy Hy 4), 


WA 2:58 PE 7g 
2 
Op Opo For 
2 
Zp =| op To Ow |, 
2 
Org Oto Or 
的 多 元 正 态 分 布 。 


综 上 ， 该 模型 框架 可 以 用 图 1 表示 。 
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其 中 ， 碌 表示 对 于 题目 六 努力 与 不 努力 作答 相 比 多 人 花 的 时 间 。 


(29) 


此 ,努力 作答 题目 的 时 间 密 


(30) 


(31) 


(32) 


exp($; — 4) 


1+ exp($; — 4) m 


P(d;; = 0[4;; = 1) 2 1 


P(4y = 1) = 


exp Yo + 119A ys) 


P(dij = 1|A;j = 0) = 
(dy = aget) 1 + exp(yo A119;  Yati) 


dij 21 dij = 0 
1 1-c C 
uij = NA uj — 0 uij —1 
1 
A = 
反应 Jl In(t;j|Ai E 0)-N (fp, o2) In(tij|A;j 一 1)-N (5 — Ti, e») 
不 努力 作答 努力 作答 


图 1 考虑 了 缺失 的 混合 模型 示意 图 
模拟 研究 证 明 ， 在 不 努力 作答 比例 较 高 的 条 件 下 ， 该 模型 参数 估计 的 返 真 性 较 好 


(Ulitzsch et al., 2020). 


混 A 合 模型 法 简 评 


混合 模型 在 处 理 异常 作答 时 最 大 的 优势 在 于 能 够 同时 完成 异常 作答 的 识别 和 模型 参数 
估计 。 具 体 来 看 ， 各 方法 具有 如 下 局 限 性 。 

首先 ,等 级 分 组 的 反应 时 模型 方法 包含 强 假设 ,， 即 对 于 所 有 题目 所 有 被 试 , 快速 猜测 作 
答 的 答对 概率 为 1。 这 显然 不 尽 合理 。 Wang 和 Xu(2015) 的 混合 多 层 模 型 就 弱化 了 这 一 假设 ， 
限定 每 道 题目 异常 作答 的 答对 概率 为 gj;。 其 次 , 半 参 数 化 的 混合 模型 和 基于 反应 时 的 混合 作 
答 反 应 模型 都 用 于 区 分 快速 作答 和 慢 速 作答 ,其 识别 快速 异常 作答 的 有 效 性 尚 待 验证 。 此 外 ， 
对 于 不 同类 别 , 这 些 模 型 需要 估计 的 参数 数量 是 相同 的 ,因此 如 果 将 它们 用 于 识别 异常 作 管 ， 
可 能 由 于 异常 作答 的 比例 明显 过 小 ， 造 成 该 类 别 参 数 估 计 的 标准 误 偏 大 ， 而 影响 其 检验 力 
(Molenaar et al., 2018)。Wang 和 Xu(2015) 的 混合 多 层 模 型 以 及 在 此 基础 上 拓展 的 应 用 于 高 阶 
IRT 的 多 层 混 合 模型 、 基 于 混合 多 层 模 型 的 两 步 方 法 和 考虑 了 缺失 数据 的 混合 多 层 模 型 ， 对 


异常 作答 的 作答 反应 和 反应 时 模型 设置 了 相对 较 少 的 待 估 参 数 ( 例 如 gj, uc 02), 能 够 在 一 定 
15 
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程度 上 解决 这 一 问题 。 然 而 该 类 模型 面临 的 主要 质疑 仍然 是 混合 模型 普遍 存在 的 强 假设 问 
题 。 虽 然 与 等 级 分 组 的 反应 时 模型 直接 限定 快速 猜测 作答 的 答对 概率 相 比 ,这 类 模型 的 假设 
有 一 定 弱 化 ,但 是 仍 有 不 尽 合 理 之 处 。 例 如 ， 这 类 模型 假设 异 第 作答 行为 的 反应 时 服从 均值 
和 标准 差 恒定 的 对 数 正 态 分 布 。 然 而 实际 中 异常 作答 可 能 和 被 试 因素 (例如 ， 学 业 能 力 ， 作 


答 速度 等 )， 或 者 题目 因素 (例如 题目 位 置 ， 题 型 等 ) 相 关 (Goldhammer et al., 2016; Lee & Jia, 


2014; Molenaar, Bolsinova et al, 2016; Molenaar et al., 2018; Molenaar, Oberski et al., 2016). 
此 ， 对 于 异常 作答 反应 时 分 布 的 假设 可 能 不 合理 。 又 例如 ， 这 类 模型 假设 异常 作答 的 正确 率 
为 9j， 即 对 于 不 同 被 试 ， 在 同样 题目 上 ， 蜡 常 作答 行为 的 答对 概率 是 相同 的 。 但 是 Feinberg 
和 Jurich(2018) 发 现 ， 不 同 能 力 水 平 被 试 异 常 作 答 的 正确 率 不 同 。 因 此 这 一 假设 不 尽 合 理 。 
综 上 ， 当 混合 多 层 模 型 的 假设 无 法 满足 时 , 这 种 方法 可 能 无 法 成 功 划 分 作答 行为 的 不 同类 型 
(Molenaar et al., 2018; Ranger & Kuhn, 2017)。 除 此 之 外 ， 考 虑 了 缺失 数据 的 混合 多 层 模 型 非 
常 复杂 ， 待 估 参 数 偏 多 ， 存 在 模型 拟 合 时 间 长 (例如 ， 对 于 1000 人 在 20 道 题 上 的 作答 ， 模 
合 


型 拟 合 所 需 时 间 在 24 小 时 以 上 ，Ulitzsch et al., 2020)， 参 数 估计 不 易 收 敛 等 问题 。 


. 三 类 方法 的 综合 分 析 与 比较 


(oS) 


3.1 三 类 方法 基本 思路 的 分 析 与 比较 


从 功能 来 说 , 反应 时 阅 值 法 和 反应 时 残 差 法 都 是 识别 快速 异常 作答 , 之 后 需要 采用 降低 
权重 的 方式 进行 参数 估计 。 而 混合 模型 法 在 建 模 时 就 考虑 了 不 同 作答 特点 ,能够 一 次 性 解决 
异常 作答 的 识别 和 模型 参数 估计 的 问题 。 

从 思路 来 说 ,尽管 三 类 方法 都 假设 ， 如果 存在 异常 作答 ,整个 作答 反应 和 反应 时 都 呈现 
出 混合 两 类 模式 的 特点 。 但 是 ,它们 处 理 两 类 作答 模式 的 思路 是 不 同 的 。 反 应 时 间 值 法 和 反 
应 时 残 差 法 首先 关注 所 有 作答 的 反应 时 分 布 。 再 根据 快速 异常 作答 具有 反应 时 短 的 特点 ， 从 
整体 分 布 中 划分 闪 值 ,将 闵 值 之 外 的 异常 值 识 别 为 快速 异常 作答 ,这 类 似 于 假设 检验 的 思路 。 
在 整个 分 布 中 极端 的 数值 , 仍 属于 这 个 分 布 的 概率 是 非常 小 的 。 因此 我 们 有 更 充分 的 理由 相 
信 这 些 极端 的 数值 是 属于 另 一 个 分 布 的 (快速 异常 作答 的 反应 时 分 布 )。 从 这 个 意义 上 说 ， 反 
应 时 残 差 法 也 是 通过 在 反应 时 残 差 或 期 望 反应 时 分 布 上 设 定 阀 值 来 做 出 判断 的 。 因 此 , 在 更 
广泛 的 层面 上 ， 反 应 时 残 差 法 也 可 以 看 作 一 种 “反应 时 赣 值 法 "。 然 而 ， 当 整个 数据 中 己 经 混 
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况 下 标准 化 反应 时 残 差 其 实 可 


anb 


有 快速 异常 作答 时 ,这些 异常 的 作答 模式 必然 会 影响 整个 数据 反应 时 的 分 布 。 例如， 这 种 情 
已 经 不 符合 标准 正 态 分 布 了 。 采 用 标准 化 反应 时 残 差 法 本 身 


的 前 提 假 设 就 不 成 立 , 会 造成 识别 结果 的 偏差 。 而 混合 模型 法 的 基本 


BABET) 


平等 的 视角 


对 待 两 类 作答 模式 。 将 作答 反应 的 正确 率 ， 反 应 时 分 布 ， 都 视 作 两 类 作答 模式 的 混合 。 这 种 
思路 具有 一 定 的 灵活 性 。 一 是 在 数据 中 存在 异常 作答 的 情况 下 , 两 类 作答 分 别 对 各 自 的 模型 
参数 估计 提供 信息 ， 不 会 出 现 像 传 统 模型 那样 ， 随 着 异常 作答 比例 增加 ， 模 型 参数 估计 误差 


增 大 的 现象 。 二 是 在 数据 中 不 存在 异常 作答 的 情况 下 ,相当 于 每 个 作 管 的 潜 类 男 


理论 上 说 该 模型 也 能 够 处 理 这 种 数据 。 


3.2 三 类 方法 局 限 性 的 分 析 与 比较 


1 都 相同 ， 从 


总 的 来 说 ， 三 类 方法 各 有 优 缺 点 。 反 应 时 阅 值 法 原理 简单 ， 便 于 应 用 和 操作 ， 是 最 早 提 


出 的 一 类 方法 。 但 是 这 类 方法 由 于 缺乏 背后 理论 模型 的 支持 , 在 现实 中 无 法 确 
BARE, 因此 其 科学 性 也 受到 越 来 越 多 的 质疑 。 反 应 时 残 差 法 基于 反应 时 模型 构造 出 期 望 


XE FREIE TO 


分 布 ,具有 一 定 的 理论 依据 ,但 是 当 存 在 快速 异常 作答 时 ,传统 的 反应 时 模型 是 否 拟 合 良 好 ， 


计算 得 到 期 望 分 布 是 否 符合 理论 分 布 , 也 是 值得 反复 其 酌 的 问题 , 混合 模型 法 也 基于 特定 的 


理论 模型 ,同时 考虑 了 不 同类 型 数据 的 特点 ,在 一 定 程度 上 突破 了 前 两 种 方法 的 局 限 性 。 并 


H, 该 方法 可 以 通过 灵活 设 定 异常 作答 部 分 参数 的 先 验 分 布 , 应 用 于 不 同类 型 异常 作答 的 识 
别 。 然 而 ， 混 合 模型 的 方法 还 普遍 存在 包含 强 假设 ， 计 算 复 杂 耗 时 长 ， 有 时 参数 估计 不 收敛 


等 缺陷 。 表 1 总 结 了 本 文中 介绍 的 方法 的 主要 局 限 性 。 
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表 1 本 文中 所 有 方法 的 主要 局 限 性 总 结 


没有 综 -— 只 能 用 
合 Epp | 包含 有 | 对 高 比 识别 结 | 于 已 知 
利用 没有 基 个 有 例 ES i don 答 比例 | 计算 复 识别 dne 
方法 类 型 具体 方法 RAM rm | 7h 6 ARE | ARR | 低 时 窜 | aga | 全 人 | RETE 
e 和 作答 py 法 批量 | 作答 的 | EM d 定 是 异 | 答 答对 
反应 的 应 用 | 强 假设 | gm m 常 作 答 | 概率 的 
a8 ii 情境 
统一 阔 值 法 x 
根据 题目 特征 求 阔 值 法 x x 
双 峰 分 交点 求 jid] 值 法 x x x 
Rp MED OC PORE 
té s RI (ELVA x 
基于 信息 求 闵 值 法 x x 
条 件 分 布 法 x 
标准 化 反应 时 残 差 法 x 
反应 时 残 差 法 
”| 见 叶 斯 残 差 法 
等 级 分 组 的 反应 时 模型 x x 
半 参 数 化 的 混合 模型 x x x x 
基于 反应 时 的 混合 作答 
wm A KB FFU yk x x x x 
混合 模型 法 反应 模型 
基于 反应 时 和 作答 反应 
的 混合 多 层 模型 
VE: 表 中 的 x 表示 方法 有 此 项 局 限 性 。 
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总 的 来 说 , 混合 模型 法 的 局 限 性 主要 来 自 于 三 个 方面 ,一 是 包含 一 些 关 于 异常 作答 的 作 
答 正 确 率 和 反应 时 分 布 的 强 假设 ， 如 果 这 些 假设 遭 到 违背 ， 可 能 无 法 得 到 准确 的 识别 结果 。 
二 是 异常 作答 比例 较 低 时 容易 出 现 问 题 。 例 如 ， 当 异常 作答 的 比例 较 小 或 者 样本 量 较 小 时 ， 
有 时 很 难得 到 收敛 的 结果 (Ranger et al, 2019)。 当 数据 中 不 存在 异常 作答 时 ， 甚 至 会 出 现 模 
型 识别 的 问题 (Dolan et al., 2002)。 三 是 计算 复杂 耗 时 长 。 例 如 ， 即 便 使 用 贝 叶 斯 框架 下 的 
MCMC 算法 估计 参数 的 后 验 分 布 ， 在 先 验 分 布设 置 合理 的 情况 下 ， 也 需要 较 长 时 间 。 笔 者 
借助 普通 计算 机 (处 理 器 为 17-4500U 内 存 为 8GB)， 对 样本 量 为 2000， 题 目 数 为 30， 异 常 作 
答 比 例 约 为 25% 的 模拟 数据 ， 基 于 Wang 和 Xu(2015) 的 混合 模型 ， 应 用 贝 叶 斯 框架 下 基于 
Gibbs 抽样 的 MCMC 算法 估计 参数 后 验 分 布 ， 和 迭代 收敛 所 需 时 间 达 到 9 小 时 以 上 。 

由 于 不 同类 型 的 方法 具有 不 同 特点 , 因此 在 实际 的 心理 与 教育 测验 数据 分 析 中 , 应当 结 
合 具 体 测验 的 特点 以 及 要 处 理 的 异常 作 管 类 型 ,选用 合适 的 方法 。 例 如， 在 一 些 高 利害 的 测 
验 中 ,学生 往 往 具 有 较 高 的 动机 ， 考 试 安全 性 也 较 高 ， 异 常 作 答 的 现象 很 少 ， 并 且 主 要 表现 
为 快速 猜测 等 快速 异常 作答 。 这 时 低 比例 的 快速 异常 作答 对 传统 模型 参数 估计 结果 的 影响 很 
小 ， 可 以 选用 反应 时 残 差 法 ， 或 反应 时 赣 值 法 识别 快速 异常 作答 并 在 估计 时 降低 权重 。 而 在 
一 些 低 利害 的 测验 中 ,异常 作答 发 生 的 频率 较 高 ,并且 主 要 表现 为 不 努力 作答 。 这 时 反应 时 
残 差 法 会 出 现 较 大 偏差 , 可 以 选用 对 高 比例 异常 作答 不 敏感 的 混合 模型 法 ,一 次 性 解决 识别 
和 参数 估计 的 问题 。 


I 


4. 问题 与 展望 


目前 ， 几 乎 所 有 的 心理 与 教育 测量 模型 都 建立 在 学 生 正 常 作答 的 前 提 假 设 下 (Wise， 
2015)， 并 没有 考虑 异常 作答 可 能 对 个 人 分 数 等 造成 影响 。 有 很 多 研究 者 提出 ， 如 果 能 够 建 
立 一 套 程序 证 明 个 人 分 数 的 效 度 (ISV，individual score validity),， 就 有 责任 在 分 析 数 据 之 前 使 
这 套 程序 (Hauser & Kingsbury, 2009; Hauser et al., 2008)。 处 理 异常 作答 显然 就 是 这 套 程序 
的 一 部 分 。 

混合 模型 虽然 在 心理 与 教育 测量 中 早 有 应 用 , 但 是 在 很 长 一 段 时 期 内 , 都 仅 停 留 在 个 人 
层面 的 分 类 。 随 着 对 数据 分 析 精 度 要 求 的 提高 ， 以 及 对 数据 中 有 效 信息 充分 利用 的 需求 不 断 
增加 , 实现 作答 层面 的 分 类 成 为 了 混合 模型 发 展 的 重要 方向 之 一 。 关于 结合 了 反应 时 与 作答 
反应 的 多 层 模型 的 深入 研究 和 推广 应 用 , 又 为 综合 利用 多 元 信息 识别 和 分 析 异 常 作答 提供 了 
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重要 的 模型 基 而 


上 1。 而 贝 叶 斯 框架 下 的 MCMC 算法 在 心理 与 教育 测量 中 的 广泛 应 用 ， 又 使 得 


更 为 复杂 的 混合 模型 的 参数 估计 得 以 顺利 实现 。 可 以 说 ,混合 模型 法 的 出 现 ， 是 模型 和 估计 


方法 发 展 优化 的 共同 结果 。 虽然 该 方法 在 异常 作答 的 处 理 中 具有 种 种 优势 , 但 它 毕 竞 是 一 类 
较 新 的 方法 ， 本 身 也 具有 一 定 的 局 限 性 。 因 此 无 论 是 方法 改进 、 方 法 适用 性 的 理论 研究 ， 还 


是 方法 在 实际 中 应 月 


能 的 研究 方向 提供 一 些 建议 ， 供 感 兴趣 的 研究 者 参考 。 


4.1 检验 违背 前 提 假 设 时 模型 的 稳健 性 


众所周知 ， 


的 实践 研究 ,都 有 着 较为 广阔 的 发 展 空间 。 以 下 对 混合 模型 方法 未 来 可 


混合 模型 最 为 研究 者 诉 病 的 方面 是 它 含有 一 些 强 假设 。 正 是 由 于 强 假设 的 存 


在 一 定 程度 上 增加 了 模型 在 假设 不 满足 时 估计 结果 不 型 


在 ， 才 使 得 对 分 类 潜 变 量 、 不 同类 别 模型 参数 的 估计 成 为 可 能 。 而 另 一 方面 ， 这 些 强 假设 也 


BAHIA. Wang, Xu, Shang 和 


Kuncel (2018) 兽 在 数据 基于 混合 模型 假设 产生 和 基于 残 差 横 型 产生 的 条 件 下 ， 对 混合 多 层 模 


型 和 贝 叶 斯 残 差 法 进行 比较 。 研 究 结果 在 一 定 程度 上 证 明了 不 管 基于 何 种 模型 产生 数据 , 混 


合 多 层 模型 相 比 于 贝 叶 斯 残 差 法 在 异常 作答 的 识别 和 参 
的 优势 。 但是， 混合 多 层 模 型 在 拟 合 基于 残 差 法 产生 的 数据 时 的 表现 ， 要 差 于 基于 混合 多 层 


模型 产生 的 数据 。 然 而 ,在 他 们 的 模拟 和 


FA 
aa 


ae 


数 估计 结果 返 真 性 上 都 表现 出 较 大 


究 中 ， 基 于 残 差 法 产生 异常 作答 的 反应 时 数据 仅 违 
背 了 混合 多 层 模 型 中 关于 反应 时 模型 的 假设 , 异常 作答 的 答对 概率 仍 符合 其 假设 。 除 此 之 外 ， 
合 多 层 模 型 还 包含 三 个 局 部 独立 性 假设 ( 见 本 文 2.2.1), 在 已 有 的 混合 多 层 模 型 研究 中 ， 这 


些 假设 都 是 满足 的 。 今 后 应 针对 混合 模型 各 种 前 提 假 设 遭 到 违背 的 情况 开展 广泛 的 模拟 研 
究 ， 探 讨 该 方法 的 稳健 性 。 


4.2 固定 部 分 


即使 应 用 了 贝 叶 斯 框架 下 的 MCMC 算法 ， 


耗 时 长 的 问题 。 


TERE. NT te BER 


题目 参数 以 提高 方法 估计 速度 


一 些 较为 复杂 的 混合 模型 仍 面临 着 计算 复杂 


这 是 因为 在 迭代 过 程 中 ， 所 有 参数 都 需要 从 后 验 分 布 中 抽取 。 可 以 设想 ， 如 


果 已 知 部 分 参数 (如 题目 参数 )， 将 其 固定 对 其 余 参 数 进行 条 件 估计 ， 应 当 能 够 有 效 提 高 估计 


外 的 题目 参数 估计 结果 ， 可 以 应 用 Liu 等 人 (2020) 提 出 的 对 被 试 个 体 分 类 


的 混合 模型 方法 ， 先 往 选 出 正常 作答 的 被 试 群体 ， 基 于 这 一 群体 拟 合 van der Linden(2007) 的 
ZERA, 得 到 较 准 确 的 正常 作答 部 分 的 题目 参数 估计 结果 。 再 将 这 些 题目 参数 估计 结果 固 
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定 ， 代 入 混合 多 层 模型 的 参数 估计 过 程 ， 
本 量 为 2000， 题 目 数 为 30， 快 速 


常 作答 使 用 两 参数 IRT 模型 拟 合 ), CFR] DI 


可 以 明显 缩短 估计 时 间 。 经 笔者 实验 证 
常 作答 比例 约 为 25% 的 模拟 数据 ， 基 于 混合 多 层 模型 (下 


明 ， 对 于 样 


叶 斯 框架 下 基于 Gibbs F 


| 样 的 MCMC 算法 估计 参 


数 后 验 分 布 , 应 用 这 种 固定 部 分 题目 参数 估计 的 方式 , 能 够 将 估计 时 间 缩 短 到 原来 的 一 半 以 


Te 


43 结合 其 他 反应 时 模型 以 提高 


a 


前 用 于 处 理 异常 作答 的 混合 
的 反应 时 模型 。 尽 管 该 模型 可 以 算 作 应 
了 一 些 其 他 的 模型 ， 并 认为 这 些 


模型 在 反应 时 部 分 多 采用 


方法 适用 性 


模型 在 某 些 


情况 下 其 有 更 好 的 适用 


的 是 van der Linden(2006, 2007) 
最 广泛 的 反应 时 模型 , 但 是 ， 也 有 很 多 研究 者 提出 
生 。 例 如， 在 实验 心理 学 


中 较 常 用 的 三 参数 反应 时 模型 (e.g., Cosineau, 2009)， 反 应 时 的 半 参 数 化 模型 (Wang, Chang et 
3)， 在 van der Linden(2007) 模 型 的 基础 上 考虑 了 残 差 相关 的 模 


al., 2013; Wang, Fan et al., 201 


型 (Bolsinova & Tijmstra, 2019) 等 。 


此 外 ，Wang 和 Xu(2015) 也 指出 ， 目 前 的 多 层 模 型 隐 含 了 


测验 中 只 含有 单一 题 型 的 假设 。 如 果 测 验 中 含有 多 种 题 型 , 时 间 密 度 参 数 可 能 依赖 于 具体 的 
题 型 , 这 可 能 需要 在 反应 时 模型 部 分 允许 不 同 题 型 的 时 间 密 度 参数 有 不 同 的 分 布 形态 
如 何 基于 其 他 的 反应 时 模型 构建 相应 的 混合 模型 ， 也 是 未 来 研究 方向 之 一 。 


4.4 考虑 实际 复杂 情境 以 提高 


方法 针对 


性 


的 统计 方法 提出 了 新 的 挑战 。 
例如 针对 同时 含有 缺失 数据 和 


目前 的 大 多 数 研究 都 考察 了 仅 存 在 一 种 类 型 异 党 
然而 在 实际 的 心理 与 教育 测验 ! 
会 带 来 数据 情况 的 复杂 性 ,现实 中 涡 


虽然 已 有 


I 不 努力 作答 的 复杂 情境 ，Ulitzsc 等 


作答 的 情境 下 ， 混 合 模 型 
， 往往 不 可 能 仅 存 在 一 种 类 型 的 异常 作答 。 被 试 的 复杂 性 常 
| 验 所 得 到 数据 往往 包含 更 复杂 的 问题 , 也 对 识别 异常 值 


些 研 究 者 对 这 种 复杂 情境 的 处 理 开 展 了 一 


数据 的 混合 多 层 模 型 。 未 来 太 
作答 ， 对 题目 有 预 了 解 的 作答 


究 也 可 以 拓 


展 到 数据 同时 包含 忽略 题 


等 情况 的 复杂 


情境 , 探索 如 何 建立 更 


2E 
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-因此 ， 


+ 法 的 有 效 性 。 


Es. 


人 (2019) 提 出 了 考虑 了 缺失 
目 ， 加 速 作答 ,快速 猜测 
针对 性 的 混合 模型 ， 并 
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4.5 增加 选择 流程 以 提高 方法 使 用 效率 


从 已 有 研究 结果 来 看 , 混合 模型 法 有 一 定 的 适用 条 件 。 当 数据 中 异常 作答 的 比例 较 高 时 ， 
使 用 该 方法 能 够 得 到 较 准确 的 识别 结果 和 参数 估计 结果 , 方法 使 用 效率 高 。 而 当 数 据 中 异常 
作答 的 比例 较 低 时 , 不 仅 会 影响 异常 作答 部 分 模型 参数 估计 结果 的 准确 性 , 其 至 还 可 能 得 到 
不 收敛 的 结果 (Ranger et al, 2019)。 此 时 不 仅 方 法 使 用 效率 低 ， 还 可 能 根本 不 能 应 用 。 此 时 
可 以 改 为 选用 其 他 对 低 比 例 异 常 作答 不 敏感 的 方法 (如 标准 化 反应 时 残 差 法 )。 然 而 在 实际 的 
数据 清理 中 ,我 们 只 能 从 测验 是 否 为 低 利 害 测验 , 测验 的 保密 程度 ， 考 生 的 基本 情况 ， 以 及 
监考 反馈 等 方面 ， 大致 推 测 异常 作答 的 严重 程度 ,选择 合适 的 方法 。 今后 的 研究 可 以 尝试 构 
建 测量 整个 数据 中 异常 作答 严重 程度 的 指标 , 建立 指标 与 使 用 混合 模型 法 得 到 的 参数 估计 结 
果 准 确 性 提高 程度 之 间 的 联系 ,从 而 指导 实践 研究 者 根据 指标 反映 出 的 数据 污染 情况 选择 合 
适 的 方法 ， 提 高 方法 的 使 用 效率 。 
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Mixture Model Method: A new method to handle aberrant responses in psychological and 
educational testing 
LIU Yue!; LIU Hongyun?? 
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China) 
( Beijing Key Laboratory of Applied Experimental Psychology, Beijing Normal University, 
Beijing 100875, China) 
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Abstract: The mixture model method (MMM) is a new method proposed to handle data 
contaminated by aberrant responses in psychological and educational measurement. Compared to 
the traditional response time threshold methods and the response time residual methods, MMM 
shows the following advantages: (1) MMM detects aberrant responses and obtaining parameter 
estimates simultaneously; (2) it precisely recovers the severity of aberrant responding. Through 
building different item response models and response time models for different latent groups, MMM 
helps to identify aberrant responses from normal responses. Future researches could investigate the 
performance of MMM when its assumptions are violated or using data with other types of aberrant 
response patterns. The computation efficiency of MMM is also likely to be improved by fixing part 
of the item parameter estimates or by using an optimal way of choosing suitable methods. 


Key words: aberrant responses, response time, threshold, residual method, mixture model 
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